最近的深层摄影的出现使操纵和生成的内容成为机器学习研究的最前沿。自动检测深击已经看到了许多新的机器学习技术,但是,人类的检测功能的探索功能要少得多。在本文中,我们介绍了比较人类和机器检测用于模仿某人声音的音频深击的能力的结果。为此,我们使用基于Web的应用程序框架作为游戏。要求参与者区分真实和假音频样本。在我们的实验中,有378位唯一用户与最先进的AI DeepFake检测算法竞争,以12540的比赛总数。我们发现,人类和深层检测算法具有相似的优势和劣势,都在努力检测某些类型的攻击。这与许多应用领域(例如对象检测或面部识别)中AI的超人性能形成对比。关于人类的成功因素,我们发现IT专业人员没有非专业人士的优势,但母语人士比非本地人的人具有优势。此外,我们发现年长的参与者往往比年轻的参与者更容易受到影响。在为人类设计未来的网络安全培训以及开发更好的检测算法时,这些见解可能会有所帮助。
translated by 谷歌翻译
本文介绍了一个数据集,用于培训和评估方法,以估算由标准RGB摄像机捕获的任务演示中手持工具的6D姿势。尽管6D姿势估计方法取得了重大进展,但它们的性能通常受到严重遮挡的对象的限制,这在模仿学习中是一个常见的情况,而操纵手通常会部分遮住对象。当前,缺乏数据集可以使这些条件的稳健6D姿势估计方法开发。为了克服这个问题,我们收集了一个新的数据集(IMITROB),该数据集针对模仿学习和其他人类持有工具并执行任务的其他应用中的6D姿势估计。该数据集包含三个不同工具和六个操纵任务的图像序列,这些任务具有两个相机观点,四个人类受试者和左/右手。每个图像都伴随着由HTC Vive运动跟踪设备获得的6D对象姿势的准确地面真相测量。通过训练和评估各种设置中的最新6D对象估计方法(DOPE)来证明数据集的使用。数据集和代码可在http://imitrob.ciirc.cvut.cz/imitrobdataset.php上公开获得。
translated by 谷歌翻译
自动评估摘要的连贯性具有重要意义,既可以实现成本效益的摘要评估,又可以通过选择高分候选候选摘要来提高连贯性。尽管已经提出了许多不同的方法来建模摘要相干性,但通常使用不同的数据集和指标对其进行评估。这使得很难理解他们的相对性能,并确定朝着更好的摘要连贯建模的方法。在这项工作中,我们对各种方法进行了大规模研究,以进行均匀的竞争环境建模。此外,我们介绍了两项新的分析措施,即系统内相关性和偏置矩阵,它们有助于确定相干度量的偏见,并为系统级混杂因素提供鲁棒性。尽管当前可用的自动连贯性措施都无法为所有评估指标的系统摘要分配可靠的连贯分数,但对自我监督任务进行了微调的大规模语言模型显示出令人鼓舞的结果,只要微调会考虑在内他们需要在不同的摘要长度上概括。
translated by 谷歌翻译
在过去的几年中,多模式变异自动编码器(VAE)一直是一项激烈研究的主题,因为它们可以将多种模态整合到联合表示中,因此可以作为数据分类和生成的有前途的工具。到目前为止,已经提出了几种多模式VAE学习的方法,但是它们的比较和评估相当不一致。原因之一是模型在实现级别上有所不同,另一个问题是,在这些情况下常用的数据集最初不是为评估多模式生成模型的设计。本文解决了这两个问题。首先,我们提出了一个用于系统多模式VAE训练和比较的工具包。其次,我们提出了一个合成的双峰数据集,旨在全面评估联合发电和交叉生成能力。我们通过比较最新模型来证明数据集的实用性。
translated by 谷歌翻译
神经语言模型有可能支持人类写作。但是,关于其整合和对写作和产出的影响仍然存在问题。为了解决这个问题,我们设计并比较了两个用于写作的用户界面与移动设备上的AI,这些用户界面操纵主动性和控制级别:1)使用连续生成的文本编写,AI添加了逐字文字和用户转向。 2)编写建议,AI建议短语和用户从列表中选择。在监督的在线研究(n = 18)中,参与者使用了这些原型和无AI的基线。我们收集了触摸互动,关于灵感和作者的评分以及访谈数据。有了AI的建议,人们的写作不那么积极,但觉得他们是作者。连续生成的文本减少了这种感知的作者身份,但编辑行为增加了。在这两种设计中,AI都会增加文本长度,并被认为会影响措辞。我们的发现为UI设计决策对用户体验和共同创造系统的产出的影响增加了新的经验证据。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
人工智能(AI)对计算的巨大需求正在推动对AI的硬件和软件系统的无与伦比的投资。这导致了专用硬件设备数量的爆炸,现在由主要的云供应商提供。通过通过基于张量的界面隐藏低级复杂性,张量计算运行时间(TCR)(例如Pytorch)允许数据科学家有效利用新硬件提供的令人兴奋的功能。在本文中,我们探讨了数据库管理系统如何在AI空间中乘坐创新浪潮。我们设计,构建和评估张量查询处理器(TQP):TQP将SQL查询转换为张量程序,并在TCR上执行它们。 TQP能够通过在张量例程中实现与关系运算符的新颖算法来运行完整的TPC-H基准。同时,TQP可以支持各种硬件,而仅需要通常的开发工作。实验表明,与专用CPU和仅GPU的系统相比,TQP可以将查询执行时间提高到10美元$ \ times $。最后,TQP可以加速查询ML预测和SQL端到端,并在CPU基线上输送高达9 $ \ times $速度。
translated by 谷歌翻译
本研究提出了一种使用深入学习工作流程来量化建筑环境中的损坏的新方法来量化。由于自动履带,从谷歌地球获得了全世界50个震中的自然灾害前后的空中图像,从谷歌地球获得了一台10,000个空中图像数据库,每像素的空间分辨率为2米。该研究利用算法SEG-Net在两个实例(现有和后自然灾害)中的卫星图像中的建筑环境的语义分割。对于图像分割,SEG-Net是最受欢迎和最通用的CNN架构之一。 SEG-NET算法在分割中达到了92%的精度。分割后,我们将两种情况之间的差异与变化百分比进行了比较。这种变化系数代表了数控的损坏,城市环境必须量化建筑环境中的整体损坏。这样的指数可以让政府估计受影响家庭的数量,也许是住房损害的程度。
translated by 谷歌翻译